最新大模型排名!中文大模型评测基准SuperCLUE发布6月榜单
中文通用大模型综合性评测基准SuperCLUE
2023年6月榜单
SuperCLUE: A Benchmark for Foundation Models in Chinese
6月榜单由4部分组成:总排行榜、基础能力榜单、中文特性榜单、70亿参数量级榜单。
2023年6月SuperCLUE中文大模型总排行榜:
2023年6月SuperCLUE基础能力榜单:
排行榜会定期更新,可访问:
https://www.cluebenchmarks.com
https://github.com/CLUEbenchmark/SuperCLUE
SuperCLUE6月评测变动及后续计划
6月榜单有一些重要变动:
https://github.com/CLUEbenchmark/SuperCLUE
3. 新设立SuperCLUE-70亿参数量级榜单
2. 增加更丰富的多维度评测,如主观题、行业、特色任务等。
SuperCLUE是什么?
中文通用大模型基准(SuperCLUE),是针对中文可用的通用大模型的一个测评基准。
它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE是中文语言理解测评基准(CLUE)在通用人工智能时代的进一步发展。
保密性高:
月考制:
自动测评:
模型范围宽泛:
人类基准:
在通用人工智能发展的情况下,也提供了模型相对于人类效果的指标对比。
客观考察的不足:我们以相对客观形式考察模型能力,但一些主观、开放性问题的模型能力的考察可能存在不足。
选取模型的不完全:我们测试了一部分模型,但还存在着更多的可用中文大模型。需要后续进一步添加并测试;有的模型由于没有广泛对外提供服务,我们没能获取到可用的测试版本。
选取的能力范围:我们尽可能的全面、综合衡量模型的多维度能力,但是可能有一些模型能力没有在我们的考察范围内。后续也存在扩大考察范围的可能。
往期推荐